Главная arrow книги arrow Копия Глава 23. arrow Вероятностные контекстно-свободные грамматики
Вероятностные контекстно-свободные грамматики

Рис. 23.1. Дерево синтаксического анализа для предложения "Every wumpus smells", в котором показаны вероятности каждого поддерева. Вероятность всего дерева в целом равна 1.0x0.5x0.05x0.15x0.60x0.10=0.000225. Поскольку это дерево является единственным вариантом синтаксического анализа данного предложения, указанное число представляет собой также вероятность этого предложения

Недостатком грамматик PCFG является то, что они — контекстно-свободные. Это означает, что различие между Ρ ("eat a banana"), "съешь банан", и Р( "eat a bandanna"), "съешь цветной платок", зависит только от соотношения вероятностей Р( "banana") и Р( "bandanna"), а не от вероятностей возникновения отношений между глаголом "eat" и соответствующими объектами. Для того чтобы можно было учитывать связи такого рода, нам потребуется контекстно-зависимая модель определенного типа наподобие лексикализованной грамматики PCFG, в которой определенную роль в оценке вероятности соответствующего словосочетания может играть голова2 этого словосочетания. При наличии достаточного объема обучающих данных может быть получено правило для, обусловленное наличием головы входящего в него словосочетания VP ("eat") и головы словосочетания NP ("banana"). Таким образом, лексикализованные грамматики PCFG позволяют учитывать некоторые ограничения на совместное вхождение элементов в моделях n-элементных сочетаний, наряду с грамматическими ограничениями моделей CFG.

Еще один недостаток состоит в том, что грамматики PCFG обнаруживают слишком заметное предпочтение по отношению к более коротким предложениям. В такой текстовой совокупности, как архив журнала Wall Street Journal, средняя длина предложения составляет около 25 слов. Но обычно грамматика PCFG в конечном итоге присваивает гораздо более высокую вероятность таким правилам, как

. Это означает, что грамматика PCFG присваивает весьма высокую вероятность многим коротким предложениям, таким как "Не slept" (Он спал), тогда как в указанном журнале с большей вероятностью встречаются предложения наподобие следующего: "It has been reported by a reliable government source that the allegation that he slept is credible" (Из надежного правительственного источника поступило сообщение, согласно которому заявление о том, что он спал, заслуживает доверия). Создается впечатление, что словосочетания в этом журнале не являются контекстно-свободными; вместо этого его авторы оценивают допустимую ожидаемую длину предложения и используют полученную оценку в качестве мягкого глобального ограничения на структуру составляемых ими предложений. Такой подход к написанию текста трудно отразить в грамматике PCFG.